Nature子刊 | 超越语言文字,让下一代 AI真正理解世界
比如算数、围棋、甚至在写作、对话等原本被认为是人类独有的语言任务上,大规模语言模型也表现出接近人类的水平。
但它们是否真正理解了这个世界呢?
模仿游戏的“缺陷”
1950年,艾伦·图灵提出了“模仿游戏”,用以检验机器是否能够展现出与人类无异的行为能力。
在这个又被称为“图灵测试”的游戏中,一位人类评判员通过对话,来判断对方是真实的人类还是机器。
通过关注对话能力,图灵规避了机器能否“思考”这个问题,他认为这个问题不可能回答。图灵测试基于这样的隐含信念,即语言代表了人类智能的巅峰,能够进行对话的机器一定是具有智能的。
如果人类测试者不能确定对话者是一个人工智能系统还是另一个人,那么人工智能就通过了这个测试。
大规模语言模型,如GPT系列,在通过这一测试方面取得了重大进展,可以进行令人称赞的连贯对话。
甚至让人误认为语言模型具有意识。
虽然这些模型令人印象深刻,但由于模型的训练不基于真实世界的经验,而是文本信息,这使得模型与人脑认识世界和生成语言的机制并不相同。
从“文本”转向“具身”与“神经AI”
“具身(embodiment)”是指人工智能系统需要具备与生物相似的感知和运动控制能力,以便在现实世界中执行任务。这种能力包括视觉、听觉、触觉、平衡和协调等方面。
为了让AI更好地适应现实世界,研究人员开始将神经科学知识与AI结合。在这一原则下产生的AI模型,就是所谓的“神经AI (NeuroAI)”。
为了加速神经AI的发展,研究者提出了“具身图灵测试”的概念:
对于一个机器人或者算法模型,如果它体现出的行为与它模拟的生物无法区分,就能通过测试。
然而,至今没有人工智能系统能够通过具身图灵测试。
让AI在感官运动技能上达到类似于动物的水平,不仅能够让我们更好地理解动物和人类学习与适应的本质,也能够为下一代AI提供一个前所未有的发展路线。
具体来说,许多核心的感觉运动能力是几乎所有动物都有的,而这些能力为动物快速进化适应新环境提供了坚实的基础。
这意味着:如果AI能够复制一种物种行为,那么该系统将可能适应于其他物种 - 甚至是人类。
具身图灵测试有哪些方面?
具身图灵测试是一种新的图灵测试,它要求人工智能动物模型以与其生物对应物相似的技能水平与感知运动与世界进行交互。
(不但会说,还要能改造世界。)
通过构建可以通过具身图灵测试的模型,可以为下一代人工智能提供路线图。
那么,这种具身图灵测试应该包含哪些方面呢?
1 | AI应该能够与环境互动
动物能够以有目的的方式与环境互动,然而目前的AI却不行。
尽管AI模型在最优控制、强化学习和模仿学习方面取得了最新进展,但机器人仍然远远没有达到动物控制身体和操作物体的水平。
经过不断训练和迭代的机器人,也会让人感到不协调与程序化。
在这个问题上,神经科学可以提供有关运动和互动的模块化和分层架构的指导,从而赋予AI这些能力。
如部分自主性(partial autonomy, 分层结构中,低层模块在缺乏高层模块输入时的半自主操作)和分摊控制(amortized control, 最初通过缓慢的规划过程生成的运动,之后能够进行快速反射的系统)等等。
将这些低级运动控制的神经机制纳入模型框架内,有望为AI系统提供更好的高级运动规划基础。
2 | AI 应该具备行为的灵活性
人类驾驶员能够区分前方货车掉落的木箱会有危险,而被吹飞的空塑料袋则不需要进行紧急制动。然而对于AI来说,这种区分却十分困难。
自动驾驶汽车无法处理在训练数据中未出现的情况,这也是AI系统的一个重大挑战。
特斯拉避让路上的塑料袋。
相比而言,动物能够利用生活经验获得的通用知识(general knowledge)来预测未来如何发展,从而适应这个不可预测的、不断变化的世界。
3 | AI应该有接近人脑的计算效率
计算效率也是现代AI面临的一个重要挑战。
训练神经网络耗能十分巨大。例如,训练像GPT-3这样的大规模语言模型需要1000,000,000,000,000 瓦的能量,足以为一个小镇提供一天的电力。
而生物系统则节能得多:人脑的功率大约是20瓦。
人脑与超级计算机性能与能耗对比 [1]。
人脑与计算机的耗能差距,是由于处理信息的方式不同导致的。
具体来说,在算法层面上,大规模语言模型等人工神经网络,依赖非常大的前馈架构和自注意力机制来处理随时间变化的序列。相比之下,大脑则可以使用灵活的递归结构处理序列信息。探究大脑的突触动力学(synaptic dynamics)和大脑递归网络的可信度赋值(credit assignment)等,有助于优化AI算法,进而提高AI的能源效率。
在执行层面上,大脑中神经元以传递动作电位(action potentials)进行沟通,这比基于数字的计算机快几个数量级,因此更加能源高效等等。
如何通过具身图灵测试?
站在进化史的角度,我们可以利用过去积累的进化领域的知识,将具身图灵测试分解为一系列难度递增的测试,通过从蠕虫、果蝇、鱼类、啮齿动物到灵长类动物的具身图灵测试,逐步升级AI模型的能力,使其最终通过全部的具身图灵测试。
1 | 趋利避害
几乎所有动物都能进行目标导向的运动:朝奖励(例如食物来源)移动,并远离惩罚(例如威胁)。
在这些基础能力之上,还有更复杂的技能,例如,将不同的感觉信息流(如视觉和嗅觉) 组合起来,利用这些感觉信息区分食物来源和威胁,权衡可能的奖励和威胁以实现目标,并以精确的方式与世界互动。
即使是非常简单的生物,如蠕虫,和更复杂的动物,如鱼类和哺乳动物中,都存在这些能力。高级生物还能将其与其他演化出的能力相结合,展现出更强大的行为策略。
2 | 分解任务
从进化的视角来看,生物的一种能力往往可以被分解为一系列难度递增的测试。而逐步优化AI在这些测试上的表现,有助于AI最终通过具身图灵测试。
具体而言,具身图灵测试涵盖了神经科学研究中使用的各种生物,包括蠕虫、果蝇、鱼类、啮齿动物和灵长类等。
这样,我们就能够利用已有的关于这些生物的大量神经科学知识,从而精确定义每个物种特定的具身图灵测试,并来指导开发最终能够通过各种测试的的AI模型。
3 | 模仿生物的神经数据
目前,已经有大量的神经数据集(例如,生物在某个行为期间的神经活动信息),以及详细的神经解剖学和连接组学(connectomics)知识,可以为优化AI模型提供参考,有助于AI最终通过具身图灵测试。
下一代人工智能
虽然当前的大规模语言模型几乎能通过语言的图灵测试,但是其内在是否具备真正的语言能力与思考能力,能否理解现实世界,仍然充满着未知数。
不过,在神经 AI 的启发下,我们有望让人工智能在真正理解世界的基础上,成功通过具身图灵测试。
这或许能开启下一代的人工智能技术,使AI模型实现真正的智能化。
这个时刻还有多远?我们能做些什么?
Reference
[1] Smirnova, L., Caffo, B. S., Gracias, D. H., Huang, Q., Morales Pantoja, I. E., Tang, B., ... & Hartung, T. (2023). Organoid intelligence (OI): the new frontier in biocomputing and intelligence-in-a-dish. Frontiers in Science, 1, 1017235.